智能论文笔记

Discriminative Radial Domain Adaptation

Zenan Huang , Jun Wen , Siheng Chen , Linchao Zhu , Nenggan Zheng

分类：机器学习 | 计算机视觉

2023-01-01

Domain adaptation methods reduce domain shift typically by learning domain-invariant features. Most existing methods are built on distribution matching, e.g., adversarial domain adaptation, which tends to corrupt feature discriminability. In this paper, we propose Discriminative Radial Domain Adaptation (DRDR) which bridges source and target domains via a shared radial structure. It's motivated by the observation that as the model is trained to be progressively discriminative, features of different categories expand outwards in different directions, forming a radial structure. We show that transferring such an inherently discriminative structure would enable to enhance feature transferability and discriminability simultaneously. Specifically, we represent each domain with a global anchor and each category a local anchor to form a radial structure and reduce domain shift via structure matching. It consists of two parts, namely isometric transformation to align the structure globally and local refinement to match each category. To enhance the discriminability of the structure, we further encourage samples to cluster close to the corresponding local anchors based on optimal-transport assignment. Extensively experimenting on multiple benchmarks, our method is shown to consistently outperforms state-of-the-art approaches on varied tasks, including the typical unsupervised domain adaptation, multi-source domain adaptation, domain-agnostic learning, and domain generalization.

translated by 谷歌翻译

Out-of-Candidate Rectification for Weakly Supervised Semantic Segmentation

Zesen Cheng , Pengchong Qiao , Kehan Li , Siheng Li , Pengxu Wei , Xiangyang Ji , Li Yuan , Chang Liu , Jie Chen

分类：计算机视觉

2022-11-22

Weakly supervised semantic segmentation is typically inspired by class activation maps, which serve as pseudo masks with class-discriminative regions highlighted. Although tremendous efforts have been made to recall precise and complete locations for each class, existing methods still commonly suffer from the unsolicited Out-of-Candidate (OC) error predictions that not belongs to the label candidates, which could be avoidable since the contradiction with image-level class tags is easy to be detected. In this paper, we develop a group ranking-based Out-of-Candidate Rectification (OCR) mechanism in a plug-and-play fashion. Firstly, we adaptively split the semantic categories into In-Candidate (IC) and OC groups for each OC pixel according to their prior annotation correlation and posterior prediction correlation. Then, we derive a differentiable rectification loss to force OC pixels to shift to the IC group. Incorporating our OCR with seminal baselines (e.g., AffinityNet, SEAM, MCTformer), we can achieve remarkable performance gains on both Pascal VOC (+3.2%, +3.3%, +0.8% mIoU) and MS COCO (+1.0%, +1.3%, +0.5% mIoU) datasets with negligible extra training overhead, which justifies the effectiveness and generality of our OCR.

translated by 谷歌翻译

Where2comm: Communication-Efficient Collaborative Perception via Spatial Confidence Maps

Yue Hu , Shaoheng Fang , Zixing Lei , Yiqi Zhong , Siheng Chen

分类：计算机视觉

2022-09-26

多代理协作感知可以通过使代理商能够通过交流相互共享互补信息来显着升级感知表现。它不可避免地会导致感知表现与沟通带宽之间的基本权衡。为了解决这个瓶颈问题，我们提出了一个空间置信度图，该图反映了感知信息的空间异质性。它使代理只能在空间上共享稀疏而感知的关键信息，从而有助于沟通。基于这张新型的空间置信度图，我们提出了2Comm，即沟通有效的协作感知框架。其中2Comm具有两个不同的优势：i）它考虑了实用的压缩，并使用较少的沟通来通过专注于感知至关重要的领域来实现更高的感知表现； ii）它可以通过动态调整涉及通信的空间区域来处理不同的通信带宽。要评估2comm的位置，我们考虑了在现实世界和模拟方案中使用两种模式（相机/激光镜头）和两种代理类型（CAR/无人机）的3D对象检测：OPV2V，v2x-sim，dair-v2x和我们的原始的Coperception-uavs。其中2comm始终优于先前的方法；例如，它实现了超过$ 100,000 \ times $较低的通信量，并且在OPV2V上仍然优于脱颖而出和v2x-vit。我们的代码可在https://github.com/mediabrain-sjtu/where2comm上找到。

translated by 谷歌翻译

Collaborative Perception for Autonomous Driving: Current Status and Future Trend

Shunli Ren , Siheng Chen , Wenjun Zhang

分类：计算机视觉 | 机器人

2022-08-22

感知是自动驾驶系统的关键模块之一，最近取得了长足的进步。但是，单个车辆的能力有限，导致感知表现的瓶颈。为了突破个人感知的局限性，已经提出了协作感知，使车辆能够共享信息以了解超出视线和视野的环境。在本文中，我们对有关有前途的协作感知技术的相关工作进行了评论，包括介绍基本概念，推广协作模式并总结协作感知的关键成分和应用。最后，我们讨论了该研究领域的公开挑战和问题，并提供了一些潜在的方向。

translated by 谷歌翻译

Neural Message Passing for Visual Relationship Detection

Yue Hu , Siheng Chen , Xu Chen , Ya Zhang , Xiao Gu

分类：计算机视觉

2022-08-08

视觉关系检测旨在检测图像中对象之间的相互作用。但是，由于对象和相互作用的多样性，此任务遭受了组合爆炸的影响。由于与同一对象相关的相互作用是依赖的，因此我们探讨了相互作用的依赖性以减少搜索空间。我们通过交互图明确地对象和交互对象进行建模，然后提出一种消息式风格的算法来传播上下文信息。因此，我们称为建议的方法神经信息传递（NMP）。我们进一步整合了语言先验和空间线索，以排除不切实际的互动并捕获空间互动。两个基准数据集的实验结果证明了我们提出的方法的优越性。我们的代码可在https://github.com/phyllish/nmp上找到。

translated by 谷歌翻译

Aerial Monocular 3D Object Detection

Yue Hu , Shaoheng Fang , Weidi Xie , Siheng Chen

分类：计算机视觉 | 人工智能

2022-08-08

配备摄像机的无人机可以显着增强人类在3D空间中具有显着的可操作性，从而使人类感知世界的能力。具有讽刺意味的是，无人机的对象检测始终是在2D图像空间中进行的，这从根本上限制了其理解3D场景的能力。此外，由于缺乏变形模型，无法直接应用于为自动驾驶开发的现有3D对象检测方法，这对于具有敏感变形和小物体的遥远空中透视至关重要。为了填补空白，这项工作提出了一个名为DVDET的双视检测系统，以在2D图像空间和3D物理空间中实现空中单眼对象检测。为了解决严重的视图变形问题，我们提出了一个可训练的可训练的可训练的转换模块，该模块可以从无人机的角度正确地扭曲信息到BEV。与汽车的单眼方法相比，我们的转换包括一个可学习的可变形网络，可显式修改严重的偏差。为了应对数据集挑战，我们提出了一个名为AM3D-SIM的新的大规模模拟数据集，该数据集由AirSim和Carla的共模制成，以及一个名为AM3D-REAL的新的现实世界空中数据集，由DJI Matrice 300 RTK收集，在两个数据集中，都提供了3D对象检测的高质量注释。广泛的实验表明，i）空中单眼3D对象检测是可行的； ii）在仿真数据集中预先训练的模型受益于现实世界的性能，iii）DVDET也有益于汽车的单眼3D对象检测。为了鼓励更多的研究人员调查该领域，我们将在https://sjtu-magic.github.io/dataset/am3d/中发布数据集和相关代码。

translated by 谷歌翻译

Weakly Supervised Online Action Detection for Infant General Movements

Tongyi Luo , Jia Xiao , Chuncao Zhang , Siheng Chen , Yuan Tian , Guangjun Yu , Kang Dang , Xiaowei Ding

分类：计算机视觉 | 人工智能

2022-08-07

为了使婴儿脑瘫（CP）的早期医疗干预，早期诊断出脑损伤至关重要。尽管一般运动评估（GMA）在早期CP检测中显示出令人鼓舞的结果，但它很费力。大多数现有作品都以视频为输入，以对GMA自动化进行烦躁的动作（FMS）分类。这些方法需要对视频进行完整的观察，并且无法本地化包含正常FMS的视频帧。因此，我们提出了一种名为WO-GMA的新颖方法，以在弱监督的在线环境中执行FMS本地化。首先将婴儿体重点作为WO-GMA的输入提取。然后，WO-GMA执行本地时空提取，然后进行两个网络分支，以生成伪夹标签和模型在线操作。凭借剪辑级伪标签，动作建模分支学会以在线方式检测FMS。具有757个不同婴儿视频的数据集上的实验结果表明，WO-GMA可以获得最新的视频级别分类和Cliplevel检测结果。此外，仅需要前20％的视频持续时间才能获得与完全观察到的分类结果，这意味着FMS诊断时间大大缩短了。代码可在以下网址获得：https：//github.com/scofiedluo/wo-gma。

translated by 谷歌翻译

Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction

Maosen Li , Siheng Chen , Zijing Zhang , Lingxi Xie , Qi Tian , Ya Zhang

分类：计算机视觉

2022-07-31

基于图形卷积网络的方法对车身连接关系进行建模，最近在基于3D骨架的人体运动预测中显示出巨大的希望。但是，这些方法有两个关键问题：首先，仅在有限的图形频谱中过滤特征，在整个频段中丢失了足够的信息；其次，使用单个图对整个身体进行建模，低估了各个身体部门的各种模式。为了解决第一个问题，我们提出了自适应图散射，该散射利用了多个可训练的带通滤波器将姿势特征分解为较丰富的图形频谱频段。为了解决第二个问题，分别对身体零件进行建模以学习多种动力学，从而沿空间维度提取更精细的特征提取。整合了上述两种设计，我们提出了一个新型的骨架派对图散射网络（SPGSN）。该模型的核心是级联的多部分图形散射块（MPGSB），在不同的身体部门建立自适应图散射，并基于推断的频谱重要性和身体零件相互作用融合分解的特征。广泛的实验表明，SPGSN的表现优于最先进的方法，其优于13.8％，9.3％和2.7％的SPGSN在每个联合位置误差（MPJPE）上，在36m，CMU MOCAP和3DPW Dataset，3D平均位置误差（MPJPE）方面，SPGSN优于最先进的方法。分别。

translated by 谷歌翻译

Aware of the History: Trajectory Forecasting with the Local Behavior Data

Yiqi Zhong , Zhenyang Ni , Siheng Chen , Ulrich Neumann

分类：计算机视觉

2022-07-20

以前通过一个位置的历史轨迹可能有助于推断该位置当前代理的未来轨迹。尽管在高清图的指导下进行了轨迹预测的大大改善，但只有少数作品探讨了这种当地历史信息。在这项工作中，我们将这些信息重新引入了轨迹预测系统的新类型的输入数据：本地行为数据，我们将其概念化为特定于位置的历史轨迹的集合。局部行为数据有助于系统强调预测区域，并更好地了解静态地图对象对移动代理的影响。我们提出了一个新型的本地行为感知（LBA）预测框架，该框架通过从观察到的轨迹，高清图和局部行为数据中融合信息来提高预测准确性。同样，如果这种历史数据不足或不可用，我们采用了本地行为（LBF）预测框架，该框架采用了基于知识依据的架构来推断缺失数据的影响。广泛的实验表明，通过这两个框架升级现有方法可显着提高其性能。特别是，LBA框架将SOTA方法在Nuscenes数据集上的性能提高了至少14％的K = 1度量。

translated by 谷歌翻译

Latency-Aware Collaborative Perception

Zixing Lei , Shunli Ren , Yue Hu , Wenjun Zhang , Siheng Chen

分类：计算机视觉 | 机器人

2022-07-18

协作感知最近显示出具有对单一主体感知的感知能力的巨大潜力。现有的协作感知方法通常考虑理想的交流环境。但是，实际上，通信系统不可避免地遭受了延迟问题，从而导致潜在的性能降解和安全关键应用程序（例如自动驾驶）的高风险。从机器学习的角度来看，为了减轻不可避免的沟通潜伏期造成的效果，我们提出了第一个延迟感知的协作感知系统，该系统积极采用从多个代理到同一时间戳的异步感知特征，从而促进了协作的稳健性和有效性。为了实现此类特征级别的同步，我们提出了一个新型的延迟补偿模块，称为Syncnet，该模块利用特征注意的共生估计和时间调制技术。实验结果表明，在最新的协作感知数据集V2X-SIM上，我们的方法优于最先进的协作感知方法15.6％。

translated by 谷歌翻译